Installation und Verwendung von Tesseract 4 unter Windows 10 您所在的位置:网站首页 Installation et utilisation de Tesseract 4 sous Windows 10 Installation und Verwendung von Tesseract 4 unter Windows 10

Installation und Verwendung von Tesseract 4 unter Windows 10

2024-06-29 15:59| 来源: 网络整理| 查看: 265

Quantrium Guides Bharath Sivakumar Follow Jul 8, 2020 – 7 min read

Tesseract ist ein optisches Zeichenerkennungsprogramm, das auf verschiedenen Betriebssystemen verwendet werden kann. Es handelt sich um eine freie Software, die unter der Apache-Lizenz veröffentlicht wurde. Ursprünglich wurde Tesseract in den 1980er Jahren von Hewlett-Packard als proprietäre Software entwickelt und 2005 als Open-Source-Software veröffentlicht. Ab 2006 wurde die Entwicklung von Google gesponsert. In dieser Anleitung zeige ich Ihnen die Schritte, die ich befolgt habe, um Tesseract auf meinem Windows 10 Rechner zu installieren. Ich werde Ihnen auch zeigen, wie Sie Tesseract von der Kommandozeile aus verwenden können, sobald Sie es erfolgreich installiert haben.

Um Tesseract 4 auf unserem Windows-System zu installieren, gehen Sie auf den folgenden Link:

Laden Sie die ausführbare Windows-Datei herunter, indem Sie auf den Hyperlink mit dem Titel tesseract-ocr-w64-setup-v4.1.0.20190314.exe klicken. Es erscheint eine Meldung, die Sie auffordert, eine Exe-Datei mit dem Namen „Tesseract-ocr-w64-setup-v4.1.0.20190314.exe“ zu speichern. Speichern Sie diese .exe-Datei an einem Ort, an dem Sie genügend Speicherplatz haben.

Öffnen Sie diese exe-Datei. Wenn Sie in einem Fenster gefragt werden: „Möchten Sie zulassen, dass diese Software Änderungen an Ihrem System vornimmt?“, klicken Sie auf „Ja“. Sie gelangen dann zum Installationsabschnitt.

Klicken Sie auf „Weiter“, klicken Sie auf „Ich stimme den Bedingungen zu“ und nachdem Sie ausgewählt haben, für wen Sie Tesseract installieren möchten (für jeden, der diesen Computer benutzt, oder nur für mich. Sie können beides auswählen), klicken Sie auf „Weiter“.

Kreuzen Sie die Kästchen „ScrollView“, „Training Tools“, „Shortcuts erstellen“ und vor allem „Sprachdaten“ an. Diese sollten standardmäßig angekreuzt sein, aber machen Sie das nur, falls sie in Ihrem System nicht angekreuzt sind.

Wenn Sie nun Vorhersagen in Fremdsprachen wie Japanisch, Chinesisch, Kurdisch oder indischen Sprachen wie Hindi, Tamil, Bengali usw. machen wollen, kreuzen Sie auch die „zusätzlichen Schriftdaten“ und „zusätzlichen Sprachdaten“ an. Wenn Sie nur Vorhersagen für die englische Sprache machen wollen, müssen Sie diese Option nicht ankreuzen.

Klicken Sie auf Weiter. Wählen Sie das Verzeichnis aus, in dem Sie Tesseract installieren möchten. Standardmäßig wird bei mir C:\Program Files\Tesseract-OCR angezeigt, und dorthin habe ich es auch installiert. Sie können es nach Belieben installieren. Merken Sie sich aber den Pfad, in dem Sie Tesseract auf Ihrem Rechner installiert haben. Das ist wichtig.

Nun können Sie den Startmenü-Ordner auswählen, in dem Sie die Programmverknüpfung erstellen möchten. Ich habe sie in einem Ordner namens „Tesseract-OCR“ erstellt. Wenn Sie die Verknüpfung in einem anderen Ordner erstellen möchten, geben Sie einfach den Namen des Ordners in das leere Feld direkt unter dem Text „Wählen Sie den Startmenü-Ordner, in dem Sie die Verknüpfung erstellen möchten ….“ ein.

Sie können auch das Kästchen „Keine Verknüpfungen erstellen“ unten links ankreuzen, wenn Sie keine Verknüpfungen erstellen möchten. Sobald Sie Ihre bevorzugte Option ausgewählt haben, klicken Sie auf „Installieren“. Es sollte einige Minuten dauern, bis die Installation abgeschlossen ist.

Wenn die Installation abgeschlossen ist, wechseln Sie in das Verzeichnis, in dem Sie Tesseract installiert haben. Wir wollen Tesseract von der Windows-Befehlszeile aus benutzen, und dazu müssen wir Tesseract zu unserem Pfad in der Umgebungsvariable des Systems hinzufügen.

Um das zu tun, klicken Sie auf die Start-Schaltfläche von Windows und suchen Sie „Umgebungsvariable“. Sie werden ein Ergebnis namens „Systemumgebungsvariablen bearbeiten“ sehen. Klicken Sie darauf. Nachdem Sie darauf geklickt haben, sollten Sie sich im Abschnitt „Erweitert“ der „Systemeigenschaften“ befinden und eine Schaltfläche mit der Bezeichnung „Umgebungsvariablen ….“ sollte unten rechts zu sehen sein. Klicken Sie auf diese Schaltfläche.

Nun sehen Sie hier zwei Tabellen. Die eine heißt User variables for . Hier ist eine Variable, die für den Benutzernamen steht, der den PC gerade benutzt. Die andere Tabelle heißt „Systemvariablen“. Klicken Sie in der Tabelle „Systemvariablen“ auf die Variable mit dem Namen „Pfad“ und dann auf diese Schaltfläche mit dem Namen „Bearbeiten“ direkt über der Schaltfläche „OK“, wie unten im Screenshot gezeigt.

Pfadvariable für Tesseract unter Windows setzen

Wenn Sie damit fertig sind, sehen Sie eine Seite namens „Umgebungsvariable bearbeiten“. Hier sehen Sie oben rechts eine Schaltfläche „Neu“. Klicken Sie auf diese Schaltfläche „Neu“. Sie erhalten ein leeres Feld, in das Sie einen Text eingeben können. Fügen Sie hier den Namen des Verzeichnisses ein, in dem alle Ihre Tesseract-OCR-Dateien gespeichert sind.

Nachdem Sie den Verzeichnisnamen eingegeben haben, drücken Sie auf „Enter“ und überprüfen Sie, ob Ihr Verzeichnisname in die Tabelle „Umgebungsvariable bearbeiten“ aufgenommen wurde. Wenn dies der Fall ist, klicken Sie auf „OK“. Klicken Sie auf der Seite „Umgebungsvariablen“ erneut auf „OK“. Klicken Sie auf der Seite „Systemeigenschaften“ erneut auf „OK“. Sie müssen jetzt alle Einstellungsoptionen verlassen haben.

Öffnen Sie die Eingabeaufforderung und geben Sie tesseract --version in die Eingabeaufforderung ein und drücken Sie die Eingabetaste. Sie werden etwa folgendes sehen:

Ausgabe für den Befehl tesseract – version, nachdem tesseract erfolgreich installiert wurde

Wenn Sie eine Fehlermeldung wie tesseract command not found sehen, haben Sie wahrscheinlich einen Fehler gemacht, während Sie dieser Anleitung gefolgt sind. Gehen Sie zurück und sehen Sie nach, wo Sie einen Fehler gemacht haben, und versuchen Sie, ihn zu beheben. Alternativ können Sie auch den gesamten Prozess noch einmal wiederholen.

Gut! Jetzt haben Sie Tesseract auf Ihrem Rechner installiert. Sie können nun damit herumspielen und es weiter erforschen.

Wie man Tesseract 4 mit der Kommandozeile auf einem Windows-Rechner benutzt

Zuerst stellen Sie sicher, dass Sie ein handgeschriebenes oder getipptes Dokument in Form eines Bildes haben. Nehmen wir an, Sie haben ein Foto im png-Format namens handwritten_photo_1 auf Ihrem Desktop und möchten Tesseract damit testen. Öffnen Sie Ihre Eingabeaufforderung. Sie starten in diesem Verzeichnis:

C:\Users\username>

wobei username Ihr Benutzername auf diesem System ist. Ich muss in das Desktop-Verzeichnis wechseln. Also verwende ich den folgenden Befehl:

C:\Users\username> cd Desktop

Jetzt bin ich im Verzeichnis Desktop, wo sich mein Bild befindet. Mit folgendem Befehl kann man sehen, was Tesseract für den Text im Dokument vorhersagt:

C:\Users\username\Desktop> tesseract handwritten_photo_1.png stdout -l eng

Tesseract gibt den Text direkt in der Befehlszeile aus. Der Parameter -l wird zur Angabe der Sprache verwendet. Hier haben wir als Sprache Englisch angegeben, was ohnehin standardmäßig der Fall ist, so dass die Verwendung von -l eng in diesem Fall überflüssig war. Wenn Sie eine andere Sprache für die OCR verwenden möchten, finden Sie unter diesem Link alle .traineddata-Dateien, in denen die Sprache angegeben ist:

Angenommen, Sie haben ein Textdokument in Hindi geschrieben. Dann gehen Sie zu diesem Link, klicken Sie auf die Datei mit dem Titel hin.traineddata und laden Sie sie herunter. Sobald Sie die Datei heruntergeladen haben, müssen Sie in den Ordner „tessdata“ wechseln, der sich in dem Verzeichnis befindet, in dem Sie tesseract ursprünglich installiert hatten. Danach können Sie die OCR von Hindi-Dokumenten mit folgendem Befehl durchführen:

C:\Users\username\Desktop> tesseract hindi_image.png stdout -l hin

Anstatt die OCR-Ausgabe auf der Befehlszeile selbst anzuzeigen, können Sie die OCR-Ausgabe auch in einer Textdatei speichern. In diesem Fall können Sie stattdessen den folgenden Befehl eingeben:

tesseract handwritten_photo_1.png output.txt

Der Text in handwritten_photo_1.png wird in einer Textdatei mit dem Namen output.txt gespeichert, die sich in Ihrem aktuellen Arbeitsverzeichnis befindet, das in meinem Fall Desktop war.

Tesseract kann auch eine Textdatei als Eingabe verwenden, wobei der Text alle absoluten Pfade der zu verarbeitenden Bilder enthalten muss.

Dies ist besonders nützlich, wenn Sie, sagen wir, zwei handgeschriebene Bilder in Englisch mit den Namen handwritten_photo_1.png und handwritten_photo_2.png im Verzeichnis C:\Program Files haben. In Ihrem derzeitigen Arbeitsverzeichnis haben Sie eine Textdatei mit dem Namen input.txt, deren Inhalt wie folgt lautet:

C:\Program Files\handwritten_photo_1.pngC:\Program Files\handwritten_photo_2.png

In der ersten bzw. zweiten Zeile:

Wenn Sie nun den Inhalt dieser beiden handgeschriebenen Fotos in einer Textdatei speichern möchten, können Sie einfach Folgendes tun:

tesseract input.txt output.txt -l eng

output.txt enthält den OCR-Inhalt von handwritten_photo_1.png und handwritten_photo_2.png in dieser Reihenfolge. Hier sollten Sie beachten, dass input.txt im aktuellen Arbeitsverzeichnis liegt. Sie können Tesseract auch auf eine Textdatei anwenden, die sich nicht in Ihrem aktuellen Arbeitsverzeichnis befindet, indem Sie den Verzeichnisort wie hier angeben:

tesseract C:\Program Files\input.txt output.txt -l eng

output.txt befindet sich dann wieder im aktuellen Arbeitsverzeichnis. Sie können dies auch für mehr als zwei Fotos tun. Beachten Sie, dass der Vorhersage für ein neues Foto in der Datei output.txt ein Symbol vorangestellt wird:

Tesseract-Ausgabe einer Eingabetextdatei mit 5 Zeilen mit Bildpositionen

In diesem Fall ist also Viral Calic die Vorhersage für das erste Bild, CY am the king of the world die Vorhersage für das zweite Bild, Com and Serr die Vorhersage für das dritte Bild und so weiter. Sie können die Ausgabe für alle eingegebenen Bilder überprüfen und die Genauigkeit der Vorhersagen kontrollieren.

Das war’s! Herzlichen Glückwunsch, Sie sind jetzt bereit, Tesseract auf Ihrem Windows 10-System zu verwenden.



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有